Cloud Dataproc
概要
フルマネージドの Apache Spark、Apache Hadoop、Presto
HDFSではなく、Cloud Storage にデータを格納した方が費用対効果に優れている(Google推奨)
BigQueryのデータを持ってきてデータ変換したい
クラスターにBigQueryコネクター(Javaのライブラリ)を入れておく
GCSにファイルを一時保存する形で処理できるようになる
BigQuery→GCS→Dataproc
ジョブが失敗した時はGCSの一時ファイルを手動でゴミ掃除せなあかん